Adversarial Filtering (AF) ist ein Verfahren zum Erstellen möglichst schwer zu lösender Aufgaben für NLI-Benchmark-Datensätze. Das Verfahren generiert falsche Hypothesen, die für Menschen relativ einfach zu erkennen sind, Sprachmodelle aber beim Finden der zu einer Prämisse logisch passenden Hypothese vor Probleme stellen. Mithilfe von AF lässt sich eventuell vorhandener Bias entfernen und die tatsächliche NLI-Fähigkeit eines Sprachmodells besser beurteilen.
Adversarial Filtering ist ein Verfahren, das im NLP-Umfeld zum Einsatz kommt. Die Abkürzung lautet AF. Das Verfahren wurde von Rowan Zellers et al. vorgeschlagen und unter anderem beim Erstellen des Benchmark-Datensatzes HellaSwag angewandt. Mit HellaSwag lassen sich die Fähigkeiten zur Natural Language Inference (NLI) von Sprachmodellen testen und beurteilen. Ziel von Adversarial Filtering ist es, möglichst schwer zu lösende Aufgabenstellungen zu generieren, indem einfach zu klassifizierende falsche Hypothesen durch schwerer zu klassifizierende falsche Hypothesen ersetzt werden. Die richtige, logisch folgende Annahme (Hypothese) zu einer Vorgabe (Prämisse) zu finden, bleibt für Menschen trotz Adversarial Filtering relativ einfach, Sprachmodelle werden aber vor größere Herausforderungen gestellt.
Adversarial Filtering wurde entwickelt, da Sprachmodelle oft sehr gute Ergebnisse in NLI-Benchmarks erzielen und menschliche Leistungen sogar übertreffen, obwohl es ihnen nach wie vor an echten NLI-Fähigkeiten fehlt. Die richtigen Lösungen werden häufig aufgrund von in den Aufgabenstellungen ungewollt enthaltenen Annotation Artefacts (Anmerkungsartefakten) gefunden.
AF hat sich als ein effektiver Ansatz zur Entfernung dieses Bias erwiesen. Die Anwendung von Adversarial Filtering senkte beim HellaSwag-Datensatz die Erfolgsquote von Sprachmodellen im Vergleich zur menschlichen Leistung deutlich. Adversarial Filtering kommt in abgewandelter Form als Conditional Adversarial Filtering auch für den 2022 entwickelten Benchmark-Datensatz für Commonsense Reasoning „DiscoSense“ zum Einsatz.
Probleme beim Testen der NLI-Fähigkeiten von Sprachmodellen
Menschen verstehen in Texten beschriebene Handlungen und Situationen mithilfe ihres sogenannten gesunden Menschenverstands. Sie nutzen ihr in der Vergangenheit erworbenes Wissen und bereits gemachte Erfahrungen. Durch dieses Wissen und ihre Erfahrungen haben sie gute Fähigkeiten zu logischen Schlussfolgerungen und ein natürliches Urteilsvermögen. Menschen erfassen die Zusammenhänge der mit wenigen Sätzen beschriebenen Situationen oder Sachverhalte richtig und können sinnvoll fortführen oder richtige Antworten auf zugehörige Fragen geben.
Im Umfeld der maschinellen Verarbeitung natürlicher Sprache (Natural Language Processing – NLP) wird die Fähigkeit, zu bestimmen, ob eine bestimmte gegebene Hypothese die logische Folge einer Prämisse ist, als Natural Language Inference (NLI) bezeichnet. Die NLI-Fähigkeit eines Sprachmodells kann mit speziellen NLI-Benchmark-Datensätzen getestet und beurteilt werden. Zu diesen Datensätzen zählen zum Beispiel SWAG und HellaSwag. Allerdings hat man in der Vergangenheit festgestellt, dass Sprachmodelle hohe Erfolgsquoten in Benchmarks erzielen und menschliche Leistungen teilweise sogar übertreffen, obwohl es ihnen nach wie vor an echten NLI-Fähigkeiten fehlt. Ursache hierfür sind die häufig in den Datensätzen ungewollt enthaltenen Annotation Artefacts (Anmerkungsartefakte), also unbeabsichtigte wechselseitige Beziehungen zwischen Input und Output.
Sprachmodelle sind sehr gut darin, diesen Bias zu erkennen und lernen schnell, die richtigen Hypothesen zu einer Prämisse mithilfe des Bias herzuleiten. Adversarial Filtering kommt als Verfahren zum Einsatz, um solchen Bias zu beseitigen beziehungsweise diesen erst gar nicht in den Benchmark-Datensätzen einziehen zu lassen. Trotz Adversarial Filtering bleiben die Aufgabenstellungen für Menschen weiterhin einfach zu beantworten, Sprachmodelle benötigen aber aufgrund des fehlenden Bias echte NLI- und Commonsense-Reasoning-Fähigkeiten.
Prinzipielle Funktionsweise von Adversarial Filtering
Ziel von Adversarial Filtering ist es, falsche Hypothesen für eine Prämisse maschinell zu erzeugen, um die tatsächlichen NLI-Fähigkeiten von Sprachmodellen besser beurteilen zu können und ungewollten Bias zu entfernen. Menschen sollen keine Probleme haben, die logisch folgende, richtige Hypothese zu einer Prämisse auszuwählen. Sprachmodelle dürfen aber die richtige Hypothese nicht durch Lernen aus Bias finden. Die richtigen Hypothesen sollen für die Sprachmodelle möglichst schwer zu finden sein, indem relativ einfach als falsch zu klassifizierende Hypothesen entfernt und durch schwerer als falsch zu klassifizierende Hypothesen ersetzt werden.
Im Prinzip verwendet Adversarial Filtering drei Komponenten: Daten (bestehend aus Aufgaben mit einer richtigen und mehreren generierten falschen Hypothesen), Diskriminator-Sprachmodelle zum Lösen der Aufgaben und Generator-Sprachmodelle zum Generieren neuer falscher Hypothesen. Der Vorgang des Adversarial Filtering besteht aus mehreren Iterationen. Vor jeder Iteration wird der Datensatz zufällig in Trainings- und Testdaten aufgeteilt. In jeder Iteration wird das Diskriminator-Sprachmodell mit dem Trainingsdatensatz trainiert. Anschließend muss es die Aufgaben im Testdatensatz lösen und die richtige Hypothese von den generierten, falschen Hypothesen unterscheiden.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Löst das Diskriminator-Sprachmodell eine Aufgabe falsch, indem es eine generierte falsche Hypothese als richtig klassifiziert, wird die Frage als ausreichend schwierig betrachtet und nicht verändert. Löst es aber eine Aufgabe richtig, wird die am einfachsten zu klassifizierende falsche Hypothese durch eine neu generierte, schwieriger zu klassifizierende falsche Hypothese ersetzt. Die Iterationen des Prozesses werden so lange durchlaufen und auf alle richtig gelösten Aufgaben angewandt, bis die Performance des Testdatensatzes konvergiert.
Weiter verbessern lässt sich der Vorgang, indem in den Iterationen verschiedene Diskriminator-Sprachmodelle trainiert wird. So ist sichergestellt, dass die Aufgabenstellungen nicht nur für ein Sprachmodell schwierig zu lösen sind.
Rowan Zellers et al. schlagen als letzten Schritt vor, die Ergebnisse von Menschen zu prüfen und falsche Hypothesen zu entfernen, die realistisch erscheinen. Das Ergebnis ist ein Datensatz von Aufgaben, die für Menschen nach wie vor leicht zu lösen sind, Sprachmodelle aber vor größere Herausforderungen stellen.